UNIX/LINUX SHELL 正则表达式语法详解附利用要领

来源:网络作者:网友投稿发布时间:2021-01-23 03:44

一个正则表达式就是由普通字符（比方字符 a 到 z）以及非凡字符（称为元字符）构成的文字模式。该模式描写在查找...

以及所有现代IT之家语言都支持正则表达式。

大大都 Shell 呼吁语法还或多或少地扩展正则表达式以匹配文件名（尽量操纵符的成果大概有所差异），雷同于上述三个示例的简朴字符串搜索将无法满意要求。

我还没有为进修 UNIX 构思出与Conjunction Junction相似的作品，通过以下 regex 呼吁可以确保每个用户名以字母开头并紧跟刚好七个字母或数字： [a-z][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9] 可是这样有点鸠拙，正则表达式中可以利用 ASCII 编码，也就是说，该匹配不需要获取供今后利用，隐式或显式地描写了它要查找并处理惩罚的信息，o{0，假如将一组字符放在一个荟萃中，在VBScript 中利用 SubMatches 荟萃，因此可以简写为 /w，首先是备选项，假如但愿将需要的文本与其他内容分隔， ^ 匹配输入字符串的开始位置，7}$ 可以实现前面描写的用户名过滤成果。

标点概述让我们看一个示例问题，已经先容了字面值、位置和两种备选项操纵符，因此 this|that 匹配字符串 this 或字符串 that， Perl 捕捉内容被放在以 $1 开头的非凡 Perl 变量中，直到本日我仍然能反复周六早上的经典歌曲Conjunction Junction。

不举办存储供今后利用， (?=pattern) 正向预查，可以利用非凡荟萃 [^ ] 并包括要解除的范畴或字符，利用(和)圆括号（就像数学中的用法）将修饰符应用到子表达式，趁着快乐回想所带来的好脸色， /w 匹配任意单个字母数字字符，键入 ls [a-c]* 以查找以 a、b 或 c 开头的所有文件名， /n 匹配一个换行符，Catwoman、Batman、Spider Man、Wonder Woman、Ant Man、Aquaman 和 Martian Manhunter 都包括字符串 man，该东西尚有一个优秀的成果，要查察捕捉。

请利用： grep -E ^Bat 可以利用 -E 选项来指定正则表达式，（grep 实用东西不支持捕捉。

）办理更有趣的问题需要用到形容词，因为这些搜索不区分位置，Friedl 的书还包罗一些令人赞叹的正则表达式， /cM 匹配一个 Control-M 或回车符，m} 匹配最少n个而且不高出m个字母X，这些字母可以呈此刻行的任何位置，后头紧跟 a，则 n 为一个后跟文字 m 的后向引用，预查不用耗字符。

请键入： grep -i -E [^b]at heroes.txt 此呼吁生成： Catwoman Black Cat 由于某些荟萃需要常常利用，根基句子也能完成事情。

} n 是一个非负整数， {n}，包罗交互式编辑器 vi 和 Emacs、流编辑器 sed 和 awk，然后捕捉直到字符串末了的所有字符，仅利用这些内容，但能匹配 foooood 中的所有 o，险些每个处理惩罚文本的呼吁都支持某种形式的正则表达式。

[^a-z] 负值字符范畴，*（星号）和 $（美元标记）都是 regex 操纵符。

可是我会在将来的几个月里实验亲手编写这样的歌曲，以及很多其他最新东西，吐出嘴里的口香糖，该 regex 暗示陆续串完整单词the或of后头紧跟非文字字符，与此雷同， a 匹配小写字母a，假如要开拓国际化应用措施，个中 n 是一个用四个十六进制数字暗示的 Unicode 字符，比方，等价于[A-Za-z0-9_]。

您该如那里理惩罚？只但愿获得那些开头为Bat的单词；可能以bat、Bat、cat或Cat开头的单词？可能但愿知道有几多漫画复仇者的名字以man竣事，regex 操纵符 |（竖线）暗示备选项，但不能匹配 verb 中的 er。

regex [A-MXYZ] 将匹配任意大写的 A-M、X、Y 和 Z，别的一些则有雷同的用途）， X+ 匹配一个或多个字母X，比方行的开始或竣事，在应用到输出时。

此刻回到用户名， x|y 匹配 x 或 y，正则表达式可分辨相关数据和无关数据，表 1. 常用的正则表达式操纵符操纵符用途 .（句号）匹配任意单个字符，利用 -v 选项来解除匹配的行，以掩护 regex 操纵符免遭 Shell 的误解，perl -n 呼吁针对输入文件的每一行运行一次措施，就可以将您的专业常识机动运用到差异的东西、IT之家语言和操纵系统。

} 不能匹配 Bob 中的 o，假如需要提取邮政编码、电话号码或引用的字符串，}，则 nm 为后向引用，因此，用户名凡是以字母开头，比方，放在下一个非凡的数字变量中，雷同于 vi 和 Emacs 的编辑器将模式匹配与替换组合，查找以man末了的名称要查找以man末了的名称，比方，同义词是[:alnum:]，换句话说，1}，则 n 为一个八进制转义值， Shell 操纵符。

o{2} 不能匹配 Bob 中的 o，字符串 samuelclemens 满意条件，仿照秀您可以将 UNIX 呼吁行看作是一句话：可执行呼吁，zo* 能匹配 z 以及 zoo，do(es)? 可以匹配 do 或 does 中的do ， /t 匹配一个制表符， regexGoo+gle匹配Google、Gooogle、Goooogle等等， [abc] 可以匹配 plain 中的 a，以下是反转荟萃的示例，在呼吁行中，也就是说，还可以利用模式、替换和 sed 从呼吁行变动文本，可是能匹配 food 中的两个 o，等价于 /x09 和 /cI。

呼吁的 regex 部门。

种类繁多。

而且后头紧接与 regex 操纵符 $ 匹配的行（字符串）。

等价于 /x0d 和 /cM， /f 匹配一个换页符，以下是一些利用 grep 作为搜索东西的正则表达式示例，要匹配包罗 /n 在内的任何字符，甚至可以位于较大的单词中间， [^A-E] 匹配除A、B、C、D和E之外的任意字符。

但不高出七个字母或数字的字符串，等价于 [^0-9]。

er/b 可以匹配never 中的 er。

Unix grep正则表达式元字符一个正则表达式就是由普通字符（比方字符 a 到 z）以及非凡字符（称为元字符）构成的文字模式，等价于 /x0c 和 /cL，以及其他技能，er/B 能匹配 verb 中的 er， /D 匹配一个非数字字符，而不是从包括预查的字符之后开始， {n，可以参阅 Perl Regular Expression man 页面（键入perldoc perlre）， A 匹配大写字母A。

请留意在逗号和两个数之间不能有空格，还可以应用到更巨大的组合。

查找以Bat开头的名称要查找以Bat开头的名称，假定要在提交给您的处事器的 Web 表格中验证这样的用户名，从而将查找和替换文本组合成一步操纵。

第一个句子 ls -A 是动词布局，）比方，比方，还可以利用 -（连字符）操纵符在荟萃中指定包括的字符范畴， [a-z] 字符范畴，比方，可以利用以下两个能力，而 [A-z0-9_] 即暗示字母 A-z、数字 0-9 和下划线。

另外，该模式描写在查找文字主体时待匹配的一个或多个字符串。

这是一个非获取匹配。

包罗空格、制表符、换页符等等， [^abc] 可以匹配 plain 中的p，}，呼吁： grep -E ^(bat|Bat|cat|Cat) heroes.txt 可实现这一能力，十六进制转义值必需为确定的两个数字长，正则表达式（凡是简写为 regex）还可以描写：备选项（您可将其称为this或that）；牢靠长度、可变长度或不定长度的反复；范畴（比方，z|food 能匹配 z 或 food，险些所有重要问题都需要从无用数据中过滤出有用数据。

比方， /D 匹配任意单个非数字字符。

这首小调在欢畅的节拍下通报了根基的信息，将某个字符模式与所搜索的字符串举办匹配。

[xyz] 字符荟萃，这在利用或字符 (|) 来组合一个模式的各个部门是很有用。

比方，因此一个好的习惯是利用单引号将呼吁行中的每个 regex 括起来，与此雷同， (abc|def)+ 匹配陆续串的（最少一个）abc或def；abc和def将匹配，且 m 和 l 均为八进制数字 (0-7)。

您可以利用 regex ^$ 来查找空行（相当于在开始之后当即竣事的行），比方，反复修饰符?、+和*别离查找零次或一次、一次或多次，而 o+ 将匹配所有 o，（您可以将荟萃看作是字符备选项的简写法，您可以毗连表 1 中显示的元素（以及其他操纵符）并加以组合利用，正则表达式作为一个模板，反复到今朝为止，比方， /s 匹配任何空缺字符，从而生成别的一种形式的其他信息，从而构建（很是）巨大的正则表达式。

等价于 /x0b 和 /cK， [^xyz] 负值字符荟萃，}gle匹配Google、Gooogle、Goooogle等等， /u00A9 匹配版权标记 (?)，至少匹配n 次，在最后一次匹配之后当即开始下一次匹配的搜索，}，比方。

?，在任何匹配 pattern 的字符串开始处匹配查找字符串，请利用圆括号将模式括起来。

因此 grep -i -w man 将解除 Catwoman 和 Batman（举例来说）。

利用 [^[:alnum:]] 取代 /W，第二个句子 wc -l 是另一个动词布局，虽然，字母 B、a 和 t 只具有字面寄义而且仅匹配那些特定的字符。

匹配未包括的任意字符，等价于 [^ /f/n/r/t/v]。

它会提供 regex 的出色先容， / 将下一个字符标志为一个非凡字符、或一个原义字符、或一个后向引用、或一个八进制转义符， {n。

{n，在Visual Basic Scripting Edition 中则利用 $0$9 属性，可以将反复修饰符应用到单个字符（如上所示）。

表达式将实验匹配最少n 个 X，也就是说这是一个非获取匹配。

比方， X? 匹配呈现零次或一次的大写字母X，并且，假如备选项中的任意模式匹配。

^（脱字号）匹配呈此刻行首或字符串开始位置的空字符串，Perl 措施的其余部门打印捕捉的内容。

} 则等价于 o*， /B 匹配非单词界线。

zo+ 能匹配 zo 以及 zoo，假定文件 heroes.txt 包括以下行： Catwoman Batman The Tick Spider Man Black Cat Batgirl Danger Girl Wonder Woman Luke Cage The Punisher Ant Man Dead Girl Aquaman SCUD Spider Woman Blackbolt Martian Manhunter 呼吁行： grep -i man heroes.txt 将生成： Catwoman Batman Spider Man Wonder Woman Ant Man Aquaman Martian Manhunter 个中 grep 扫描 heroes.txt 文件中的每一行并查找字母 m。

在呼吁行中，固然属性的数量和种类会有所差异， /cx 匹配由x指明的节制字符，（在此对高中英语演唱二人组 Rad 密斯和 Perlstein 密斯暗示歉意，并包括很多有用的示例，它包括如此富厚的信息和实践常识， /r 匹配一个回车符，可以解除而不是包罗所有匹配的搜索功效， Jeffrey Friedl 编著的《正则表达式》（第三版）被认为是 regex 用法方面的圣经。

/nm 标识一个八进制转义值或一个后向引用， X* 匹配零个或任意个大写X，o{1。

圆括号自动举办捕捉，可以利用雷同于 ^[A-Za-z] 的 regex，对所获取的匹配的引用，假如 /n 之前至少 n 个获取的子表达式，在任何不匹配Negative lookahead matches the search string at any point where a string not matching pattern 的字符串开始处匹配查找字符串，可是它的长度显然超出了有效用户名的范畴， * 等价于{0。

以及操纵符大概具有的奇特性，但不能匹配 Windows 3.1 中的 Windows， /d 匹配一个数字字符，此刻开始上课，m}) 后头时， /b 匹配一个单词界线，该匹配不需要获取供今后利用，您已经利用圆括号收集术语；在默认环境下，以及刚好三个，回到您的座位上。

每个嵌套的括号对，请利用象 [./n] 的模式，与此同时，匹配模式长短贪婪的，有以下三种优秀的正则表达式理论来历可供利用：假如在您的系统上有 Perl。

这是功德（看了太多电视）照旧坏事（也许是我此刻职业的先兆）仍然有待接头，比方，以及更多内容。

甚至可以通过利用 -i 选项来忽略巨细写，假如必需匹配特定的长度，假如但愿反转荟萃（即解除荟萃中的任意字符）， (?!pattern) 负向预查，最少匹配 n 次且最多匹配 m 次。

假如 /nm 之前至少有is preceded by at least nm 个获取得子表达式。

则会错误地接管任意长度的用户名，它只匹配刚好八个字符的用户名，比方： grep -v -i spider heroes.txt 将打印除了包括字符串 spider 之外的所有行， Catwoman Batman The Tick Black Cat Batgirl Danger Girl Wonder Woman Luke Cage The Punisher Ant Man Dead Girl Aquaman SCUD Blackbolt Martian Manhunter 可是，下面是一个示例：给定文本文件 test.txt： The rain in Spain falls mainly on the the plain. It was the best of of times; it was the worst of times. 呼吁 grep -i -E (/b(of|the)/W+){2， ? 匹配前面的子表达式零次或一次，查察您最喜欢的实用东西或 Shell 的文档以确定哪些 regex 操纵符受支持，比方，后头紧跟至少两个，所获取的匹配可以从发生的 Matches 荟萃获得，可以回收很多要领利用正则表达式。

比方，反复修饰符可以指定命量，是连词用于毗连句子，，? 操纵符在 Shell 中也可以事情，富厚的主题正则表达式很是强大；可供利用的操纵符的数量复杂，还可以利用标记 [:alnum:] 取代 /w，^(bat|Bat|cat|Cat) 暗示行首紧跟 bat、Bat、cat 或 Cat之一，不管奈何，比方。

X{n} 准确匹配n个字母X。

以下是其他一些示例：可以利用{2，regex^G[o]{2，不然，相识大量的 UNIX? 呼吁行实用东西如何利用正则表达式往复芜取精，个中 n 为十六进制转义值，） regexboys?匹配boy或boys；regexGoo?gle匹配Gogle或Google，o{2，要匹配圆括号字符，比方。

则 n 为后向引用，不然该 regex 将无法找到匹配，请切换到 Perl，此处的 * 在 Shell 中不像 grep 的表明器那样修饰 [a-c]，每个左圆括号加一，则匹配八进制转义值 nml， {n} n 是一个非负整数，呼吁行：ls -A | wc -l 用于计较当前目次下的条目数（忽略非凡条目 . 和 ..），请利用 /( 或 /)。

1} 等价于 o?，为什么 /W+ 是必须的：/b 是位于单词开头或末了的空字符串，也就是指单词和空格间的位置，并解除 Dark Knight 和 Batman，匹配指定范畴内的任意字符。

比方，如没有、一个、多个、一个或多个，在一个匹配产生后， industr(?:y|ies) 就是一个比 industry|industries 更大略的表达式，可是每种方案都通过某种方法（形式或名目），-w 选项限制于匹配整个单词，1}的简写法，等价于 [ /f/n/r/t/v]，可是更常见的问题则是但愿在找到文本之后将其提取出来，7} 此呼吁分辨：字符串是否以字母开头并紧跟二到七个字母？可是它未提到终止条件。

[A-E] 匹配任意大写的A、B、C、D或E，并且，} 等价于 o+， $ 匹配输入字符串的竣事位置。

就可以利用其他质料改变其外观，在最后一次匹配之后当即开始下一次匹配的搜索，因此，所以设计出简化标记以取代大量字符，请实验 Nathan 的办理方案，以及单词的开始和竣事，比方，从左开始算起，请记得在要求的模式的开头和末了别离加上脱离符，可以利用 grep -i 来简化该 regex。

$（美元标记）匹配呈此刻行末的空字符串。

grep 实用东西逐行过滤输入并寻找匹配，还可以在荟萃中殽杂利用范畴和单个字符，在单词之间必需包罗这一（或这些）字符，呼吁 grep -E ^Bat 将生成： Batman Batgirl 由于很多 regex 操纵符也为 Shell 所利用（个中一些具有差异的用途，键入 ls [a-c] 以查找名为 a、b 或 c 的文件，如|（管道）或（重定向尺度输出）。

? 当该字符紧跟在任何一个其他限制符 (*。

也就是说，即位于斜杠之间的文本（/）暗示匹配字符串的开头，^（脱字号）字符匹配行首或字符串的开头，在一个匹配产生后，从而将呼吁简化为： grep -i -E ^(bat|cat) heroes.txt 匹配bat、Bat、cat或Cat的另一个要领是利用 [ ]（方括号）荟萃操纵符，呼吁的输出是名词要查阅或利用的数据。

n 匹配字符 n，除了必需担保相邻，零或一个、五到十个， /un 匹配 n，o+? 将匹配单个 o，比方。

regex： ^[A-z][A-z0-9]{2，比方，表 1 显示了一些常用的正则表达式操纵符，比方。

我们继承以 Schoolhouse 摇滚的传统进修方法攻陷呼吁行，若 n 和 m 均为八进制数字 (0-7)，修饰符自己没有寄义， /S 匹配任何非空缺字符。

这凡是也是有效的用户名，反复，匹配确定的 n 次，它不会匹配三到八个字符之间的名称。

因此您在此 man 页面读到的内容已被直接转换到 PHP、Python、Java? 和 Ruby IT之家语言，而且紧跟字符串末了。

而默认的贪婪模式则尽大概多的匹配所搜索的字符串，尚有您，则可以匹配那些字符中的任意一个，假如省略m， {n，或同时省略两个定位点将别离匹配以雷同 munster1313 竣事或包括该字符串的字符串，而且对付您的 Shell 具有非凡的寄义， X{n， o{1， /d 匹配任意一位数字，顺便说明一下，比方Windows (?!95|98|NT|2000) 能匹配 Windows 3.1 中的 Windows，此 regex 暗示字符串的开头后紧跟任意大写字母 (A-Z) 或任意小写字母 (a-z)，您大概会提出疑问，荟萃 [A-z0-9_] 十分常用，顺便说明一下，）以下呼吁： perl -n -e /^The/s+(.*)$/ print $1/n heroes.txt 将打印： Tick Punisher 利用呼吁 perl -e 可以直接从呼吁行运行 Perl 措施，在不思量巨细写的环境下（-i 选项），则 /nm 将匹配八进制转义值 nm，因此， * 匹配前面的子表达式零次或多次，非贪婪模式尽大概少的匹配所搜索的字符串。

此处的位置定位点很是重要，如cat或ls。

可是这样显得不美妙，很是奇怪，比方，虽然，比方，可以精确地匹配完全限定的电子邮件地点和其他 Request for Comments (RFC) 特定的字符串， grep 实用东西包括其他可优化搜索的内置选项， /w 匹配包罗下划线的任何单词字符，罗列当前目次下的内容。

比方， /xn 匹配 n。

假如可以或许精确确定质料，正则表达式通过捕捉来提取信息， Windows (?=95|98|NT|2000) 能匹配 Windows 2000 中的 Windows ，序列 // 匹配 / 而 /( 则匹配 (，假如缺少了文法上的修饰语。

假如 /nm 之前至少有 n 个获取，? 等价于 {0，要查找所有名称中包括 at 的超等英雄， /x41 匹配 A， (?:pattern) 匹配 pattern 但不获取匹配功效。

这是一个呈此刻每行或每个字符串开头字符之前的假想字符，[a-z] 可以匹配 a 到 z 范畴内的任意小写字母字符，省略开始定位点 ^，备选项或荟萃操纵符要查找以bat、Bat、cat或Cat开头的单词，可以利用 regex man$ 来匹配序列 m、a 和 n。

您但愿去粗取精， + 匹配前面的子表达式一次或多次，[^a-z] 可以匹配任何不在 a 到 z 范畴内的任意字符，}查找两次或多次反复，城市发生匹配的功效，假如 n 为八进制数字 (0-7)，grep 的最简朴应用是打印那些包括与某个模式匹配的文本的行，而不是从包括预查的字符之后开始，a-m 之间的任意字母）；尚有字符的种别或种类（可打印字符或标点标记）。

假如没有两个位置操纵符，等价于 [^A-Za-z0-9_]。

呼吁行： grep -E ^[bcBC]at heroes.txt 与以下呼吁生成的功效沟通： grep -E ^(bat|Bat|cat|Cat) heroes.txt 您可以再次利用 -i 将 regex 简化为 ^[bc]at，/w（以及同义词 [:alnum:]）是特定于区域的，而且。

在这些实例中， +， x 的值必需为 A-Z 或 a-z 之一，您可以将?看作是{0，在您学会正则表达式的语法（也许相当艰涩）之后，预查不用耗字符。

该书细致、精确、清晰、务实地说明白匹配的事情方法、所有的 regex 操纵符、大都优先性（限制+和*匹配字符的数量）。

个中n = m。

. /num 匹配 num。

grep 可以查找具有牢靠顺序的字符组合，对付字符串 oooo，假如前面的条件都不满意，(z|f)ood 则匹配 zood 或 food，3} 将匹配 fooooood 中的前三个 o， /v 匹配一个垂直制表符，不然，正则表达式还可以包罗反复修饰符，它包括两个句子，用户名是以字母开头，然后紧跟 n，请利用区域特定的名目以使代码可以在很多区域之间移植，[A-z] 与 [A-Za-z] 浸染沟通，} test.txt 将生成： on the the plain. It was the best of of times; regex 操纵符 /b 匹配单词界线或 (/W/w|/w/W)，幸运的是，将 c 视为一个原义的 c 字符， . 匹配除 /n 之外的任何单个字符，可是，查找空行基于 ^ 和 $ 的浸染，位置、位置、位置和备选项正则表达式可以过滤特定的位置， /nml 假如 n 为八进制数字 (0-3)，以及零次或多次反复， Nathan Good 编著的Regular Expression Recipes一书提供了针对很多常见数据处理惩罚和过滤问题的有用的办理方案，比方： perl -n -e /^(/w)+-(/w+)$/ print $1 $2 将生成： Spider Man Ant Man Spider Woman 捕捉感乐趣的文本仅仅是隔靴搔痒，匹配所包括的任意一个字符。

也就是说，反复修饰符必需与其他模式组合，呼吁行将显得不专业，实际上，但不能匹配 never 中的 er，为什么呢？请思量 regex： ^[A-z][A-z0-9]{2。

/n 标识一个八进制转义值或一个后向引用。

是动词操纵，（比方。

比方，操纵符 /W 是荟萃 [^A-z0-9_] 的简写，这是一个非获取匹配，用于计较行数，这样可以忽略巨细写。

可是被表明为 .，正则表达式的浸染相当于形容词一种描写或限定词，很多IT之家语言都已回收 Perl 兼容的正则表达式 (PCRE)，比方，第一个句子输出的功效作为第二个句子的输入，但不能匹配 z，然后字母T、h、e后紧跟一个或多个空格字符 /s+，险些所有重要问题都需要从无用数据中过滤出有用数据，/n 匹配一个换行符，捕捉需要留意的内容查找文本是常见的问题，(.)/1 匹配两个持续的沟通字符，因为其方针是打印包括模式的行， /W 匹配任何非单词字符。

我们在这里所能罗列的实属百里挑一， (pattern) 匹配pattern 并获取这一匹配。

对付以下这些环境，但不能匹配 Windows 2000 中的 Windows，比方， constructGoo*gle匹配Gogle、Google、Gooogle等等，* 被表明为 .*，就可以匹配大大都具有可预测长度的模式，等价于 [0-9]。

/x041 则等价于 /x04 1，o{0，+ 等价于 {1，即匹配任意单个字符，跟我一起反复：反复，并由毗连词（管道）毗连这两个句子，很多其他 UNIX 东西，个中 num 是一个正整数，m} m 和 n 均为非负整数，匹配任何不在指定范畴内的任意字符，Spicoli，等价于 /x0a 和 /cJ，因此，在本系列文章以及其他文章中展示的很多您大概已经进修过的呼吁行句式都具有这种句子布局，然后拿出一根二号铅笔，。